我们提出了一个健壮而快速的捆绑调整解决方案,该解决方案估计了基于滚动快门(RS)摄像头的测量值的摄像机的6多杆姿势和环境的几何形状。这解决了现有作品中的挑战,即依靠其他传感器,高帧速率视频作为输入,对摄像机运动的限制性假设,读出方向和效率低下。为此,我们首先研究了标准化对图像点对RSBA性能的影响,并在建模真正的6-DOF相机运动时显示了更好的近似值。然后,我们为视觉残差协方差提出了一个新的分析模型,该模型可用于在优化过程中标准化再投影误差,从而提高了整体准确性。更重要的是,RSBA(NW-RSBA)中归一化和协方差标准化加权的组合可以避免常见的平面退化,而无需限制拍摄方式。此外,我们根据其Jacobian Matrix和Schur补充的稀疏性提出了NW-RSBA的加速策略。广泛的合成和真实数据实验验证了拟议解决方案对最新作品的有效性和效率。我们还证明了所提出的方法可以轻松实施,并作为已完成的RSSFM和RSSLAM解决方案插入著名的GSSFM和GSSLAM系统。
translated by 谷歌翻译
从点云数据进行分割至关重要,例如遥感,移动机器人或自动驾驶汽车。但是,由3D范围传感器捕获的点云通常是稀疏且非结构化的,具有挑战性的有效分割。在本文中,我们提出了一个快速解决方案,以对云实例进行分割,并具有较小的计算需求。为此,我们提出了一种新颖的快速欧几里得聚类(FEC)算法,该算法在现有作品中使用的聚类方案上应用了一个方案。我们的方法在概念上是简单,易于实现的(C ++中的40行),并且在产生高质量的结果的同时,针对经典分割方法实现了两个大小。
translated by 谷歌翻译
The application of natural language processing (NLP) to cancer pathology reports has been focused on detecting cancer cases, largely ignoring precancerous cases. Improving the characterization of precancerous adenomas assists in developing diagnostic tests for early cancer detection and prevention, especially for colorectal cancer (CRC). Here we developed transformer-based deep neural network NLP models to perform the CRC phenotyping, with the goal of extracting precancerous lesion attributes and distinguishing cancer and precancerous cases. We achieved 0.914 macro-F1 scores for classifying patients into negative, non-advanced adenoma, advanced adenoma and CRC. We further improved the performance to 0.923 using an ensemble of classifiers for cancer status classification and lesion size named entity recognition (NER). Our results demonstrated the potential of using NLP to leverage real-world health record data to facilitate the development of diagnostic tests for early cancer prevention.
translated by 谷歌翻译
Language models (LMs) now excel at many tasks such as few-shot learning, question answering, reasoning, and dialog. However, they sometimes generate unsupported or misleading content. A user cannot easily determine whether their outputs are trustworthy or not, because most LMs do not have any built-in mechanism for attribution to external evidence. To enable attribution while still preserving all the powerful advantages of recent generation models, we propose RARR (Retrofit Attribution using Research and Revision), a system that 1) automatically finds attribution for the output of any text generation model and 2) post-edits the output to fix unsupported content while preserving the original output as much as possible. When applied to the output of several state-of-the-art LMs on a diverse set of generation tasks, we find that RARR significantly improves attribution while otherwise preserving the original input to a much greater degree than previously explored edit models. Furthermore, the implementation of RARR requires only a handful of training examples, a large language model, and standard web search.
translated by 谷歌翻译
我们定义了一个名为“扩展单词对齐”的新颖概念,以提高后编辑辅助效率。基于扩展的单词对齐方式,我们进一步提出了一个名为精制单词级量化宽松的新颖任务,该任务输出精制标签和单词级对应关系。与原始单词级别的量化宽松相比,新任务能够直接指出编辑操作,从而提高效率。为了提取扩展单词对齐,我们采用了基于Mbert的监督方法。为了解决精致的单词级量化宽松,我们首先通过训练基于Mbert和XLM-R的序列标记的回归模型来预测原始量化量子标签。然后,我们使用扩展单词对齐来完善原始文字标签。另外,我们提取源差距对应关系,同时获得GAP标签。两种语言对的实验显示了我们方法的可行性,并为我们提供了进一步改进的灵感。
translated by 谷歌翻译
最近的隐私泄漏事件和更严格的政策法规要求公司和移动应用程序的合规标准更高。但是,此类义务还在应用程序开发人员遵守包含各种观点,活动和角色的这些法规方面面临重大挑战,尤其是对于在此问题或资源有限的小型公司和开发人员中。为了解决这些障碍,我们开发了一个自动工具NL2GDPR,该工具可以从开发人员的自然语言描述中制定策略,同时还可以确保该应用程序的功能符合通用数据保护法规(GDPR)。 NL2GDPR是通过利用由百度认知计算实验室开发的信息提取工具OIA(开放信息注释)开发的。核心,NL2GDPR是一个以隐私为中心的信息提取模型,附有GDPR策略查找器和策略生成器。我们进行一项全面的研究,以掌握提取以隐私为中心的信息和制定隐私政策的挑战,同时利用针对此特定任务的优化。借助NL2GDPR,我们可以在正确识别与个人数据存储,过程和共享类型相关的GDPR策略方面获得92.9%,95.2%和98.4%的精度。据我们所知,NL2GDPR是第一个允许开发人员自动生成GDPR策略的工具,只需要输入自然语言来描述应用程序功能。请注意,其他非GDPR相关功能可能与生成的功能集成在一起,以构建复杂的应用程序。
translated by 谷歌翻译
知识蒸馏(KD)已广泛发展并增强了各种任务。经典的KD方法将KD损失添加到原始的跨熵(CE)损失中。我们尝试分解KD损失,以探索其与CE损失的关系。令人惊讶的是,我们发现它可以被视为CE损失和额外损失的组合,其形式与CE损失相同。但是,我们注意到额外的损失迫使学生学习教师绝对概率的相对可能性。此外,这两个概率的总和是不同的,因此很难优化。为了解决这个问题,我们修改了配方并提出分布式损失。此外,我们将教师的目标输出作为软目标,提出软损失。结合软损失和分布式损失,我们提出了新的KD损失(NKD)。此外,我们将学生的目标输出稳定,将其视为无需教师的培训的软目标,并提出了无教师的新KD损失(TF-NKD)。我们的方法在CIFAR-100和Imagenet上实现了最先进的性能。例如,以Resnet-34为老师,我们将Imagenet TOP-1的RESNET18的TOP-1精度从69.90%提高到71.96%。在没有教师的培训中,Mobilenet,Resnet-18和Swintransformer-tiny的培训占70.04%,70.76%和81.48%,分别比基线高0.83%,0.86%和0.30%。该代码可在https://github.com/yzd-v/cls_kd上找到。
translated by 谷歌翻译
我们研究了图神经网络(GNN)的解释性,作为阐明其工作机制的一步。尽管大多数当前方法都集中在解释图节点,边缘或功能上,但我们认为,作为GNNS的固有功能机制,消息流对执行解释性更为自然。为此,我们在这里提出了一种新颖的方法,即FlowX,以通过识别重要的消息流来解释GNN。为了量化流量的重要性,我们建议遵循合作游戏理论中沙普利价值观的哲学。为了解决计算所有联盟边际贡献的复杂性,我们提出了一个近似方案,以计算类似沙普利的值,作为进一步再分配训练的初步评估。然后,我们提出一种学习算法来训练流量评分并提高解释性。关于合成和现实世界数据集的实验研究表明,我们提出的FlowX导致GNN的解释性提高。
translated by 谷歌翻译
视觉变压器(VITS)具有与卷积神经网络相比,具有较小的感应偏置的根本不同的结构。随着绩效的提高,VIT的安全性和鲁棒性也非常重要。与许多最近利用VIT反对对抗性例子的鲁棒性的作品相反,本文调查了代表性的病因攻击,即后门。我们首先检查了VIT对各种后门攻击的脆弱性,发现VIT也很容易受到现有攻击的影响。但是,我们观察到,VIT的清洁数据准确性和后门攻击成功率在位置编码之前对补丁转换做出了明显的反应。然后,根据这一发现,我们为VIT提出了一种通过补丁处理来捍卫基于补丁的触发后门攻击的有效方法。在包括CIFAR10,GTSRB和Tinyimagenet在内的几个基准数据集上评估了这些表演,这些数据表明,该拟议的新颖防御在减轻VIT的后门攻击方面非常成功。据我们所知,本文提出了第一个防御性策略,该策略利用了反对后门攻击的VIT的独特特征。
translated by 谷歌翻译
与人类的视野相比,基于卷积神经网络(CNN)的计算机视觉更容易受到对抗性的噪音。这种差异可能归因于眼睛如何样本视觉输入以及大脑如何通过其背侧和腹侧视觉途径处理视网膜样品,这些途径尚未探索计算机视觉。受到大脑的启发,我们设计了复发性神经网络,包括模拟人类视网膜的输入采样器,它是一个指导下一步位置的背面网络,以及代表视网膜样品的腹网络。组合这些模块,这些模型学会了多一眼图像,每一眼就注意一个明显的部分,并随着时间的推移积累表示形式以识别图像。我们测试了此类模型的稳健性,并在不同水平的对抗噪声上测试,特别关注不同输入采样策略的效果。我们的发现表明,视网膜凹和采样使模型更加可靠,并且在给予更长的时间以更多地看一眼图像时,该模型可能会从攻击中纠正自身。总之,强大的视觉识别可以从三种受脑启发的机制的综合使用中受益:视网膜转化,注意力引导的眼动运动和经常性处理,而不是仅喂食的CNN。
translated by 谷歌翻译